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jg 要 : [目的 /意义 ] 探 索 能 够 实现 基于 词 和 实体 的 检索 与 知识 挖掘 的 人 文 知识 库 构 建 方 法 。 


[方法 /过 程 ] 以 《 资 治 通 


鉴 . 周 秦汉 纪 》 为 例 ,对 68 卷 60 万 字 的 文本 自动 分 词 与 词性 标注 之 后 ,人 工 标 注 文 本 中 的 人 物 、 地 点 GIS、 时 间 等 


实体 信息 ,实现 基于 词 和 实体 的 全 文 检 索 和 地 图 检索 系统 ;利用 


用 同 现 信息 


ue 使用 TP-IDF 方法 ,通过 时 间 序列 分 析 , 控 气 出 多 事 之 秋 \ 风 云 人 物 \ 风 云 之 地 等 结果 。[ 结果 /结论 ] 基于 词 和 实体 
m 的 深度 信息 标注 ,能 够 解决 缺乏 词 界 、 同 名 异 指 和 异 名 同 指 的 检索 难题 ， 的 知识 发 握 与 知识 
T 服务 提供 基础 支撑 。 
21 《 资 治 通 鉴 》 数字 人 文 ”知识 挖 据 十 籍 检索 ”十 文 信息 处 理 
Æ =: C250 
Sa: 10. 13266/j. issn. 0252 -3116 2021. 22. 014 
E 

EIE 的 词 检索 功能 , 则 必须 进行 词语 的 切 分 。 例 如 ,基于 词 
le = 


检索 “ 军 ”" 时 ,只 应 该 出 现 “ 军 ”作为 一 个 词 的 上 下 文 ， 


C & eb itr; fidc RUE 大 包罗万象 ,是 研究 中 国 
的 语言 文学 .历史 文化 等 方面 的 宝藏 。 上 世纪 末 以 
区 放 籍 的 电子 化 和 基于 字 的 全 文 检索 系统 已 经 取得 
子 哈 多 重大 进展 ,形成 了 一 大 批 可 用 的 电子 数据 库 ， 
而 隔 着 数字 人 文 技术 的 兴 ,国际 史学 界 已 经 开始 
从 经 质 文献 的 文字 历史 氢 述 转变 为 吉 构 化 历史 数据 
库 @ 希 罗 多 德 的 历史 数据 库 记 和 中 国 历史 人 物 传记 数 
据 库 (CBDB) “都 尝试 把 历史 的 要 素 , 诸 如 时 间 、 人 物 、 
地 点 进行 详细 的 描述 与 关联 ,形成 可 检索 .可 视 化 的 历 
史 数 据 平台 。 既 可 以 作为 学 术 研 究 的 基础 平台 ,又 可 
以 作为 科普 的 窗口 ,用 户 不 需 具备 专家 级 的 古典 文献 
的 阅读 能 力 与 丰富 的 历史 知识 便 可 以 使 用 ,大 大 便利 
了 学 术 研 究 , 特 别 是 跨 学 科研 究 ” 。 
目前 ,这 种 中 国 古 籍 的 数据 库 的 构建 和 应 用 仍 存 
在 三 大 问题 亟待 解决 :四 中 国 古 籍 要 从 字 检 索 走 向 词 
检索 。 由 于 古 汉 语 没 有 词语 边界 ,要 实现 类 似 于 英语 


而 不 应 该 出 现 “ 将 军 ”“ 访 军 " 等 结果 。 忆 从 专 名 标 引 
走向 实体 标注 。 不 少 经 典 古 籍 已 经 人 工 标 引 了 人 名 、 
地 名 Ba Ser m CE AN ) ,但 是 仪 依靠 横 线 和 波 
浪 线 两 种 符号 难以 区 分 出 不 同类 型 的 专 名 ,更 难以 解 
决 同名 异 指 ( 如 多 个 事物 名 称 相同 ) 和 异 名 同 指 (如 一 
个 人 物 多 个 名 称 ) 问题。 例如 ,检索 “秦始皇 "这 个 人 
物 时 ,不 仅 要 包含 “秦始皇 ”这 个 字符 捉 的 上 下 文 ,还 
应 该 得 到 这 个 人 物 的 所 有 上 上下文, 包括“ 启 政 “如 政 ” 
等 。 因 而 ,全 面 梳 理 各 种 不 同 的 人 物 、 地 点 、 时 间 等 专 
名 对 应 的 实体 信息 ,并 在 文本 中 标明 每 个 实体 的 唯一 
代号 ,才能 够 满足 后 续 细 致 的 检索 和 统计 需要 。G@@ 从 
全 文 检 索 走 向 知识 挖掘 与 可 视 化 呈现 。 现 有 的 检索 平 
台大 都 只 提供 基于 字 的 检索 结果 ,而 在 人 物 `. 地 点 .时 
间 等 实体 要 素 进行 标注 之 后 ,可 以 借助 数据 挖掘 技术 ， 
发 气 出 实体 之 间 的 关联 关系 ,再 通过 可 视 化 方法 直观 
地 展现 出 来 。 因 此 ,需要 探索 能 够 实现 基于 词 和 实体 
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以 《 资 £hipexivsf EA EP 


的 检索 与 知识 挖掘 的 人 文 知识 库 构 建 方法 。 

本 研究 以 文史 价值 极 高 的 《 资 治 通 鉴 ， 周 秦汉 
纪 》 作 为 样本 ,构建 数字 人 文 知识 库 和 检索 系统 。 为 了 
解决 传统 的 基于 字符 串 的 全 文 检索 存在 的 问题 ,将 文 
本 进行 了 分 词 与 词性 标注 ,从 而 实现 基于 词 的 全 文 检 
索 。 然 后 ,进一步 标注 人 物 、 地 点 的 实体 信息 ,并 根据 
这 些 信息 ,借助 可 视 化 等 技术 ,构建 《 资 治 通 鉴 ) 数 字 
人 文 检索 系统 。 在 此 基础 之 上 ,对 人 物 、 地 点 实体 以 及 
词汇 进行 计量 与 数据 挖掘 ,给 人 文学 者 提供 一 个 突破 
传统 研究 路 径 的 更 加 高 效 的 古籍 信息 加 工 框架 与 深度 
开发 路 径 。 


2 研究 现状 


二 <《 资 治 通 鉴 > 以 编 年 体 方式 记载 了 公元 前 403 年 至 
AT 959 年 的 历史 ,是 一 部 史学 与 文学 价值 极 高 的 典 
给 \ 其 研究 多 集中 于 版 本 、 点 校 、 注 踊 和 文学 历史 等 方 
Ls 时 在 1956 年 ,古籍 出 版 社 就 出 版 了 《 资 治 通 鉴 ) 标 
gb" ,1988 年 董 志 普 对 《 资 治 通 鉴 》 的 标点 提出 疑 
m o DELI IR A2 3 K: REE RERE E 
€ o KNT 功能 和 伦理 功能 角度 评估 了 史 
L -ÈE BHA EEN fA EE Y E E E 


xD". 
OLEATE TE 3E T HIEMS AG RC 
ZRA it — 批 古籍 全 文 检索 数据 库 "”。 特 别 是 2014 
人 华 书 局 推出 了 出 版 级 的 高 质量 (中 华 经 典 古 和 
VES" ,收录 了 《 资 治 通 鉴 》, 功 和 上 有 阅读 全 文 .纪年 换 
算 = 太 名 索引 。 专 名 也 进行 了 标 引 , 加 上 了 专 名 线 , 例 
6 从 物 .地 点 .官职 名 、 民 族 名 等 加 下 划 线 , 书 名 加 波 


古文 分 词 与 词性 标注 也 不 断 展开 。 古 汉语 虽 
然 以 单字 词 为 主 ,但 是 多 字 词 仍 占 了 相当 的 比例 ,大 量 
的 人 名 、 职 官 , 时 间 等 均 存 在 大 量 的 多 字 词 。 分 词 之 
后 , 才 可 能 实现 词 的 检索 。 而 名 词 动词 人名、 时 间 等 
细 类 区 分 的 词类 标注 ,对 于 古 汉 语 的 研究 有 重要 意 


RU AREE I 2007 年 ,北京 大 学 数据 分 析 研 究 中 心 
团队 与 中 华 书局 合作 ,设计 开发 了 “ 资 治 通 鉴 知识 服务 
系统 ”"。 该 系统 通过 对 时 间 、 地 点 、 人 物 等 专 有 名 词 
进行 标 引 ,进而 对 人 物 进 行 相关 性 分 析 、 时 间 分 析 等 ， 
是 利用 计算 机 分 析 技 术 对 传统 古籍 进行 知识 挖掘 的 成 
功 探索 。2010 年 , 彭 炜 明 、 宋 继 华 采用 模式 驱动 的 方 
X ,构建 了 《 资 治 通 鉴 ) 领 域 知识 本 体 , 并 在 此 基础 之 
上 实现 了 本 体 的 查询 和 可 视 化 "” 。 该 项 目 更 关注 人 
物 和 事件 的 标注 ,但 缺乏 对 地 点 的 标注 与 分 析 。 这 两 
项 《 资 治 通 鉴 》 知识 库 的 开发 , 均 使 用 了 知识 本 体 技 
术 。 不 过 ,由 于 自动 提取 信息 ,导致 实体 的 遗漏 率 较 
高 ,也 没有 解决 好 异 名 同 指 和 同名 异 指 问题 。 对 语言 
学 词汇 信息 标注 (如 分 词 .词类 信息 ) 和 地 理 GIS 信息 
等 标注 不 足 , 有 竺 更 加 全 面 的 信息 。 

近年 来 ,数字 人 文 逐 渐 成 为 国内 外 人 文 研究 的 新 
方法 。 哈 佛 大 学 和 复旦 大 学 等 合作 开发 了 “中 国 历史 
地 理 信息 系统 CHGIS”, 提 供 了 一 个 可 以 进行 空间 分 析 
和 时 间 统 计 的 数字 地 图 平台 ”。 北 京 大 学 通过 数字 
人 文 手段 研究 了 唐 代 300 年 仁 人 的 迁徙 路 线 、 宋 到 明 
几 百 年 的 儒家 理学 传承 路 线 , 开 发 了 禅宗 法 传承 可 视 
化 平台 。 南 京师 范 大 学 开发 了 《 左 传 》” 《史记 ， 
本 纪 》2 两 个 包含 词汇 人 名 .地 名 等 实体 与 GIS 信息 
的 历史 人 文 知识 库 ,可 以 满足 更 为 多 样 的 检索 与 知识 
服务 。 

综 上 ,古籍 的 电子 化 与 字符 级 全 文 检索 已 经 成 熟 ， 
古文 的 分 词 与 词性 标注 方法 接近 成 熟 , 知 识 本 体 构建 
与 分 析 逐 步 展开 ,基于 词 的 全 文 检索 成 为 未 来 主流 的 
发 展 方向 ,时 间 、 人 物 关系 、GIS 等 信息 也 越 来 越 受到 
重视 。《 资 治 通 鉴 ) 等 古籍 专 书 知识 库 的 建设 吸 需 建 
立 基于 文本 的 实体 标注 ,以 实现 更 完整 的 信息 整合 与 
更 多 样 .更 深入 的 知识 计量 ,挖掘 与 服务 。 


3 《 资 治 通 鉴 * 周 秦汉 纪 》 数 字 人 文 知识 
库 的 构建 


义 。 对 于 古籍 检索 来 说 ,也 可 以 更 好 地 区 分 一 个 词 
的 不 同 词 类 。 由 于 建设 成 本 高 ,目前 仅 有 千 万 字 级 
的 语料库 。 主 要 有 南京 师范 大 学 的 先秦 语料库 所 、 
中 古 汉语 语料库 ”和 人 台湾“ 中研院 ”的 上 古 、 中 古 、 
近代 语料库 。 

基于 知识 本 体 (ontology ) 方法 的 古籍 内 容 结构 化 
工作 也 已 经 展开 。 中 华 书局 主持 开发 了 “二 十 四 史 ” 
本 体 , 以 人 名 索引 、 人 名 词典 等 资源 ,对 4 700 万 字 的 
二 十 四 史 中 的 人 物 . 时 间 、 地 点 等 实体 进行 了 自动 提取 


《 资 治 通 鉴 》 的 篇 幅 巨 大 ,本 文选 取 了 最 前 面 的 
周 , 秦 、 汉 三 代 的 数据 进行 建设 ,目的 是 为 了 先 解 决 最 
早期 的 部 分 ,并 可 以 与 记载 内 容 相似 的 《史记 兴 左 传 》 
进行 对 比分 析 。 考 虑 到 基于 字 的 全 文 检索 或 自动 构建 
知识 本 体 存在 的 问题 ,本 研究 尝试 基于 词语 和 实体 的 、 
地 毯 式 的 全 文 标注 ,以 整合 更 多 的 信息 ,进行 知识 挖掘 
与 可 视 化 。 实 体 标注 目前 仅 限 于 人 物 和 地 点 。 表 1 给 
出 了 全 文 标注 的 3 个 层次 ,在 原始 文本 的 基础 上 ,进行 
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词语 的 切 分 (用 空格 作为 词 界 ) 、 词 性 标注 (名 词 . 动 到 别 为 鲁 。 
d] .标点 等 ) 和 实体 ID (A47) 的 标注 。 这 样 每 句 话 R2 ”人物 实 体 示例 
中 的 每 个 词 都 有 了 丰富 的 信息 ,通过 标明 人 名 、 地 名 人 物 ID 人物 主 名 m "T 


的 ID 号 ,解决 同名 异 指 和 异 名 同 指 的 问题 。 人 名 和 
地 名 对 应 的 ID 分别 取 自 人 物 信息 表 和 地 名 信息 表 ， 
并 与 4 左 传 兴 史记 本纪》 知识 库 中 的 实体 ID 保持 
相通 。 在 标注 时 ,沿用 两 者 的 人 物 实体 表 中 的 数据 ， 
新 数据 则 分 配 新 的 ID 进行 信息 填写 和 标注 。 下 面 分 
别 介绍 。 
表 1 文本 的 多 层次 标注 

标注 层级 样 例 


原始 文本 IRE BEREH 

分 词 标注 张 耳 、 陈 余 至 邯郸 

词性 标注 张 耳 [ 人 名 ] 、[ 标 点] 陈 余 [人 名 ] 至 [动词 ] 邯郸 [地 
v 名 ]。[ 标 点 ] 
zko 标注 RELA W D 3171] RL AH ID 2465] 至 HERE [3h ex 
Hg z ID 981] 


3 数据 来 源 
OCRE) mu 底 本 为 繁体 字 ,电子 版 全 文 294 35, 
[EZ] 300 万 字 。 本 研究 主要 参照 中 华 书 局 1956 


Ta 


Rh 进行 校勘 。 目 前 ,完成 了 周 , 秦 、 汉 3 个 朝代 共 
证 经 卷 (60 万 字 ) 的 文本 校勘 与 标注 工作 。 
3e 分 词 与 词性 标注 

外 6 文 分 词 和 词性 标注 工作 , 耗 时 耗 力 。 本 文采 用 
RUPES 然后 辅 以 人 工 校正 的 方式 ,进度 大 为 
m. 首先 ,采用 了 陈 小 荷 等 制定 的 分 词 与 词类 标记 
集 到 ,使 用 南京 师范 大 学 十 汉语 词性 标注 系统 忆 进行 
了 育 动 分 词 与 词性 标注 ,该 系统 的 整体 正确 率 在 85% 
以 中 ,然后 进行 了 全 面 的 人 工 校对 ,形成 高 质量 的 标注 
文本 。 
3.3 实体 信息 标注 
3.3.1 人 物 信息 

《 资 治 通 鉴 》 中 人 物 的 名 号 往往 有 多 个 ,并 且 不 同 

人 物 的 同名 现象 也 相当 普遍 , 需 根 据 各 种 注疏 文献 和 
相关 资料 进行 辨析 。 为 了 辨识 清楚 每 个 人 物 , 本文 给 
每 个 人 物 实体 分 配 一 个 唯一 的 ID 号 ( 即 编号 ) 。 如 果 
这 个 人 物 在 《 左 传 》 和 《史记 》 出 现 过 , 则 沿用 这 两 部 书 
的 人 物 也。 对 于 新 的 人 物 , 则 设立 新 的 了 D。 人 物 信息 
还 包括 人 物 的 各 种 名 称 、 性 别 和 国 别 。 由 于 一 个 人 物 
在 古书 中 名 称 可 能 较 多 ,为 了 便于 后 续 的 检索 和 可 视 
化 显示 ,我 们 还 设置 了 后 世 使 用 较 多 的 "人物 主 名 ” 作 
为 人 物 的 正名 。“ 人 物 主 名 ”并 不 一 定 来 自 “ 人 物 名 ”， 
而 可 能 是 后 世 采 用 的 较为 完整 的 名 称 。 如 表 2 所 示 ， 
“ 叔 孙 州 人 "的 人 物 D 为 131, 有 4 个 名 字 , 性 别 为 男 ， 


131 HI AP RRT 州 仇 子 叔 孙 男 $ 
3.3.2 地 点 信息 

与 人 物 信息 标注 相似 ,地 点 也 沿用 了 《 左 传 》 和 
《史记 》 中 的 信息 ,对 于 《 资 治 通 鉴 》 中 新 出 现 的 地 名 ， 
则 予以 新 的 TD ,并 填写 地 理 实体 的 信息 ,包括 地 名 的 
类 别 (国家 .诸侯 国 河流 .山川 等 ) .今天 的 所 在 地 、 考 
据 的 文献 出 处 ,然后 根据 今天 所 在 地 查 出 百度 地 图 的 
地 理 GIS 坐标 。 主 要 参考 《中 国 历史 地 图 集 》” .中 
历史 地 理 数据 库 CHGIS ”等 资料 。 表 3 给 出 了 诸侯 
xj" AU" BOE S 
表 3 地 理 实体 示例 
今天 的 所 在 地 考据 的 文献 出 处 ”百度 GIS 坐标 


地 名 了 四 地 名 Ky 


2 和 部 ”诸侯 国名 山东 省 邹 城 市 Mate 117.008 519, 
东南 《春秋 左 传 注 》 35.413 84 
3.3.3 ”时间 信 息 
根据 《先秦 诸 子 系 年 》 等 资料 ” ,将 每 一 个 篇 目的 
年 号 ,对 应 到 公元 纪年 上 。 例 如 ，“ 卷 第 一 周 纪 一 … 


二 十 一 年 ”对 应 于 “公元 前 381 年 ”。 
3.4 ”数据 库 架构 


基于 《 资 治 通 鉴 > 电子 化 全 文 ,分词 和 词性 标注 以 
及 实体 信息 标注 ,构建 出 《 资 治 通 鉴 ， 周 秦汉 纪 》 数 据 


库 。 主 要 包括 人 物 实体 .地 点 实体 表 、 文 本 表 、 标 注 文 
本 表 、 人 物 同 现 表 .人 地 同 现 表 共计 6 张 数 据 表 ,具体 
字段 与 结构 如 图 1 所 示 。 根 据 人 物 实体 表 和 地 点 实体 
表 中 的 了 D, 将 正文 中 的 每 个 人 物 和 地 名 都 标注 了 其 ID 
信息 。 然 后 ,同一 个 句子 中 ,不 同 的 人 物 会 一 起 同 现 ， 
人 物 和 地 点 也 会 同时 出 现 。 我 们 根据 这 两 种 同 现 信 
息 ,在 标注 好 的 “标注 文本 表 ” 上 ,提取 出 “人 物 同 现 
表 ” 和 “人 地 同 现 表 ”。 


4 基于 词 和 实体 的 全 文 检索 


4.1 基于 词 和 实体 的 检索 框架 

为 了 让 平台 服务 社会 ,本 研究 使 用 Web 开发 技 
AR ,构建 了 《 资 治 通 鉴 》 在 线 检索 系统 ,测试 版 网 址 为 
www. dhbase. com/zztj。 系 统 的 功能 结构 如 图 2 所 示 ， 
除了 基于 词 的 全 文 检索 功能 外 ,还 基于 底层 的 结构 化 
的 数字 人 文 知 识 库 ,提供 了 人 物 、 地 点 、 词 性 等 多 种 查 
询 方式 。 
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a o ERIBSSMSERITI 


AWD 一 一 人物 也 一 一 人物 思 HZD 序号 序号 
人 物 ID2 ET 人 物 主 名 HAD ap 地 名 正文 EX 
同 现 频次 人 物 名 同 现 频次 类 别 注释 分 词 标 注 
性 别 今天 所 在 地 词性 标注 
国 别 出 处 实体 标注 
百度 GIS 坐标 


图 1 数据 库 的 结构 


词性 检索 


2 《 资 治 通 鉴 > 检索 系 统 结构 


Y 


m 全 文 实体 检索 
@ 与 传统 的 基于 字符 串 匹 配 的 全 文 检索 方式 不 同 ， 
全 严实 体检 索 是 建立 在 具有 实体 标注 信息 的 文本 之 上 
的 沪 种 更 加 精确 的 、 基 于 词 和 实体 的 检索 方式 。 这 种 
避免 了 字符 检索 生硬 匹配 造成 检索 宛 余 .缺漏 与 
a 例如 图 3 给 出 了 “ 军 " 基 于 词 的 结果 ,就 不 
4 佑 生出 现 包 合 在 “将 军 "“ 北 军 "“ 访 军 "等 词 中 的 情况 ， 
从 2*098 个 结果 ,减少 到 1 872 个 。 


p " 
次 治 通 鉴 
» 共 提 索 到 1872 条 结果 — 本 次 搜索 用 时 0.085 秒 

c ex 
Emm 
A ard 3E, EHEREBCKHONL, ... 兰 第 一 周 纪 一 

OE WAM, SENF. M, Gib. S, RÜGEN. RX: BAJAR S, FRAMA; RF 
Q 从 " 衣 " 和 从" 十， ] 


RAMEE, (05823? ..。 卷 第 一 周 纪 一 
Ut: 4-68 fU; 乙 十 一 行 本 同 ; 孔 本 同 ，】 
F, EERE, ME.. e-me- 
O6, DA. A6, n8.) 

TE, 2 兰 第 二 周 纪 二 

【将 重 之 官 ， 自 周 以 来 有 之 。] 

mm, J"... 
ULIKECTIGED. 0, tAE. RESO: S, HAB. HS Mitt. SAO: ON DEt. sm, 
调 军 趣 利 前 后 不 相 局 ， 半 至 半 不 至 也 。 局 ， 防 玉 秋 。) 


军 入 魏 地 为 十 万 灶 ， 了 明 .…。 卷 第 二 周 纪 二 
GA, IRE. ) 


卷 第 二 周 纪 二 


3 ”基于 词 的 检索 结果 (“ 军 ”) 


4.3 ”人物 检索 

人 物 检索 功能 主要 提供 了 人 物 的 基本 信息 的 查 
询 ,主要 包括 人 物 的 主 名 、 别 名 性别、 国 别 信息 ,并 且 
能 与 4 左 传 》 和 《史记 本 纪 》 知 识 库 进行 联动 ,展示 该 
人 物 在 《 左 传 》 和 《史记 本 纪 》 中 的 出 现 情况 。 例 如 
在 检索 “ 汉 武 帝 ” 时 ,系统 根据 人 物 ID 进行 全 文 检索 ， 
可 以 得 到 “武帝 “刘彻 ”等 结果 ,而 不 仅 限 于 包含 “ 汉 


武帝 ”的 段落 ,如 图 4 所 示 : 
资 治 通 鉴 


共 搜索 到 443 条 结果 本 次 搜 坷 用 时 0.091 秒 


人 物 


RRES a 
Ls] RR BH] Ld] IE RRE) 


全 文 


孝 武 ， 痊 以 宫室 需 敞 天.…， 兰 第 十 一 漠 纪 三 
(m, FMB. B MES. ) 


iW. BAES... 着 第 十 六 江 纪 八 
(S, MRE. MHo: 漠 史 多 以 娠 为 任 身 字 。] 


徽 ，..。 郑 第 十 六 江 纪 八 
GF, MBR. ) 


腰 东 王 徽 为 皇 太子 。.…。 卷 第 十 六 江 纪 作 


长 太子 ，..。 卷 第 十 六 潢 纪 八 
GF, FRB. t, em. iA. AoA. RR. XU. ) 


DEE "O k un 


4 ”人物 检索 示例 


此 外 ,人 物 地 图 检索 功能 基于 人 物 与 地 点 的 同 现 
数据 ,借助 百度 地 图 实现 人 物 可 能 去 过 的 地 点 展示 ,并 
基于 人 物 与 人 物 的 同 现 数据 ,借助 ECharts 技术 实现 
人 物 交际 圈 的 图 示 。 图 5 给 出 了 汉 武 帝 的 人 物 主 名 、 
别称 、 性 别 、 国 别 以 及 在 《4 史记: 本 纪 》 和 《 左 传 》 中 出 
现 的 情况 。 


汉 武 帝 
别名 : ors] [stris] [SB] [S s] RR EO 性 别 ; 男 
国 别 : 江 是 否 出 现在 《史记 ) m: 是 是 否 出 现在 《 左 传 》 中 : 否 


人 物 轨迹 


5 人 物 同 现 地 的 地 图 示例 (“ 汉 武 帝 ”) 


图 6 用 人 物 同 现 数据 近似 展现 了 汉 武 帝 的 交际 情 
况 , 图 的 中 心 节点 表示 汉 武 帝 ,周围 节点 表示 与 汉 武 帝 
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在 一 个 句子 中 同 现 的 人 物 。 在 这 些 同 现 人 物 节 点 中 ， 
节点 越 大 表示 该 人 物 与 汉 武 帝 同 现 的 次 数 越 多 ,人 物 
关系 就 可 能 越 密切 。 

— 


T 

> 不 疑 
N HE em [OU 
er 图 6 “ 汉 武 帝 ” 的 人 物 关系 


ETC. 
< 二 地 点 功能 提供 了 地 点 实体 的 基本 信息 的 查询 , 主 


7 词性 检索 “v( 动 词 )” 示 例 


称 。 名 称 最 多 的 人 物 是 汉 高 祖 刘 邦 。 因 此 ,给 每 个 人 
物 使 用 唯一 的 ID 编号 来 标定 是 十 分 有 必要 的 。 下 文 
将 针对 词语 ,人 物 与 地 点 实体 展开 大 数据 计量 统计 与 
可 视 化 分 析 。 
5.1 词 频 统计 

不 同 于 传统 的 文史 分 析 ,数字 人 文 视 域 下 可 以 利 
用 能 够 揭示 或 表达 文本 核心 内 容 的 关键 词 或 主题 词 出 
现 的 频次 高 低 来 确定 其 主题 和 热点 。 基 于 已 标注 的 分 


笑 地 点 的 地 名 类别. 今天 所 在 地 ,并 且 能 与 《 左 
m on 
(Rez) Rig - 本纪》 中 的 出 现 情况 。 此 外 ,地 点 检 
右 蚤 能 基于 地 点 实体 表 中 的 坐标 信息 ,借助 百度 地 图 
实现 地 点 在 现代 地 图 上 地 理 位 置 的 展示 。 例 如 ,在 检 
蔓 往 安 "时 ,可 以 看 到 长 安 的 地 和 名、 类别、 今天 所 在 地 
等 御 息 ,并 能 看 到 长 安 在 现 代 地 图 上 的 具体 位 置 。 
Mz 词性 检索 

加 除了 人 物 和 地 点 的 实体 检索 之 外 ,普通 词语 也 都 
进行 了 分 词 和 词性 标注 ,可 以 在 词性 信息 的 支撑 下 , 提 
供 基于 词性 的 检索 和 统计 。 词 性 统计 功能 提供 了 词性 
的 相关 信息 , 主要 包括 该 词性 下 的 所 有 词 条 ,和 借助 
ECharts 绘制 的 该 词性 不 同 词 条 的 词 频 条 形 图 。 图 7 
展示 了 检索 “v( 动词 )" 得 到 的 词 频 分 布 图 ,可 以 方便 
十 汉语 研究 者 查看 词性 信息 。 


5 计量 分 析 与 知识 挖掘 


根据 《 资 治 通 鉴 ， 周 秦汉 纪 》 数 字 人 文 知 识 库 和 
检索 系统 ,可 以 进行 更 加 深入 的 计量 分 析 工 作 ,获得 传 
统 定 性 分 析 难 以 得 到 的 数据 结果 。 在 4 资 治 通 鉴 ， 周 
秦汉 纪 》 所 包含 的 实体 中 ,人 物 实体 有 4 588 个 ,地 点 
实体 有 1 451 个 。 人 物 统计 结果 显示 ,平均 每 个 人 物 
有 1.95 个 名 称 , 有 超 一 半 的 人 物 不 止 1 个 名 称 ,50% 
的 人 物 有 2 -5 个 名 称 ,3% 的 人 物 有 6 个 及 以 上 的 名 


词 文 本 ,可 以 得 到 词 频 统计 结果 。 统 计 结 果 显 示 , 单 字 
词 共有 2 610 个 ,多 字 词 共有 7 970 个 。 其 中 “之 ”一 词 
出 现 的 频率 最 高 ,为 5 038 次 。 不 同 于 基于 字 的 传统 
研究 ,本 研究 在 基于 词 的 语 料 上 ,可 以 统计 出 多 字 词 的 
分 布 情况 。 表 4 列 出 了 词 频 排名 前 10 的 多 字 词 ,这 些 
词 多 为 实 词 , 且 基 本 都 和 争夺 天 下 相关 ,例如 “天 下 ” 
“ 诸 伐 ”“ 陆 下 ”“ 将 军 ” 等 ,在 一 定 程度 上 反映 了 《 资 治 
通 鉴 ) 主 要 是 围绕 争夺 天 下 与 帝位 记叙 的 。 其 中 “天 
下 "一 词 出 现 的 频率 最 高 ,为 569 次 。 当 然 , 还 可 以 利 
用 词语 的 信息 ,从 历时 的 角度 来 观察 汉语 词汇 演化 的 
过 程 ,可 以 研究 词汇 的 动态 发 展 状况 。 
表 4 多 字 词 的 词 频 ( 排 名 前 10) 


多 字 词 词 频 
天 下 569 
诸侯 275 
匈奴 267 
太子 245 
天 子 237 
於是 209 
陛下 209 
将 军 169 
汉王 162 
孙 相 149 


5.2. 实体 关系 的 挖掘 与 3 部 史书 横向 对 比 
5.2.1 最 “ 广 交 ” 人 物 
在 传统 的 人 物 研 究 中 ,人 物 历史 地 位 的 高 低 往 往 
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人 文 知识 库 的 构建 与 应 用 一 一 


KNS 


ERS 


需要 根据 其 在 历史 事件 中 所 扮演 角色 的 轻重 来 衡量 。 
这 种 评价 方式 虽然 可 行 , 但 却 缺乏 统一 旦 客观 的 标准 。 
而 通过 定量 统计 人 物 同 现 次 数 的 方式 ,可 以 近似 地 佑 
计 人 物 之 间 的 交往 关系 ,进而 估计 人 物 的 历史 地 位 。 
同 现 人 物 越 多 ,交际 也 就 越 广 ,所 具有 的 地 位 也 就 可 能 
更 高 。 横 向 对 比 《 左 传 》: 和 《史记 本纪》 的 数据 ,能 

明显 地 看 出 3 本 史书 的 异同 。 为 了 更 好 地 和 《 史记》 对 
E ,我 们 将 《 资 治 通 鉴 》 的 数据 截止 到 汉 武 帝 时 期 。 表 
5 列 出 了 《 资 治 通 鉴 . 周 秦汉 纪 》 最 “ 广 交 ” 的 十 大 人 
物 ,其 中 前 3 名 为 汉 高 祖 、 汉 武帝 和 项 羽 。3 本 书 相 对 


5.2.2. 人 物 游历 距离 

《 资 治 通 鉴 ， 周 秦汉 纪 》 记 录 了 大 量 的 时 间 、 人 物 
和 地 点 信息 。 借 助人 物 与 地 点 实体 的 同 现 信息 可 以 近 
似 地 估计 人 物 可 能 的 游历 地 点 。 结 合 地 点 的 坐标 信息 
可 以 计算 出 两 点 A( 纬 度 pi, AE A) A BRE oi ,经 
BE A.) zc iR] B S t ER BU ,如 公式 (1) 所 示 。 加 上 时 
间 的 先后 顺序 ,将 各 个 距离 累加 起 来 ,可 以 估计 人 物 的 
游历 距离 。 

Distance(A,B) =111.999 x 


2 t $ 
网 可 以 看 出 ( 风 记 HO GONE Maey | ect taD EL) ax 
更 偏重 对 秦汉 时 期 的 记载 。 如 表 6 所 示 ,在 《 资 治 通 鉴 . 周 秦汉 纪 》 游 历 距离 
表 5 最 广 交 人 物 (前 10 位 ) 最 多 的 10 位 人 物 中 ,4 位 为 君王 ,3 位 为 军事 家 ,2 位 为 
VOBIS - 周 秦汉 纪 左 传 史记 .本纪 开国 元 勋 ,1 位 为 外 交 家 。 其 中 游历 距离 最 多 的 汉 高 
MED AD AY 数 NDO MOE NGO ABE 祖 ,距离 有 14 万 千 米 之 多 ,可 见 汉 高 祖 征战 开国 的 一 
Ws 亚 立 八 WA 
uem qe meh m am | Æo 此 外 ,通过 联动 《 左 传 》 和 《史记 本纪) 数据 库 ， 
项 羽 82 — df o 0n NEF 36 也 可 以 比较 不 同 史 书 中 人 物 游 历 的 差异 ,进而 挖掘 两 
RARO € HRA 70 3 3 | 本 史书 在 内 容 和 风格 上 的 不 同 倾 向 性 。 借 助 这 种 方 
ME ME NE a 法 ,虽然 不 能 进行 精确 的 计算 ,但 能 大 致 地 估计 出 人 物 
陈 涉 52 齐 桓公 62 D 29 
EWEO o» XA a Be om 游历 的 轨迹 与 行程 ,辅助 分 析 人 物 的 生平 .出行 距离 等 
汉 景帝 4 — "USA 5 韩信 2 问题 。 
韩信 47 EE 56 陈 平 25 
秦始皇 42 楚 共 王 55 刘 肥 25 
表 6 人 地 同 现 数 及 距离 (排名 前 10) 
资 治 通 鉴 ， 周 秦汉 纪 左 传 史记 ' 本 纪 
地 点 数 直线 距离 / 千 米 人 物 地 点 数 直线 距离 / 千 米 人 物 地 点 数 直线 距离 / 千 米 
Ex 933 146 288 周 武 王 48 19 300 汉 高 祖 253 33 393 
羽 533 79 493 UT 33 16 018 项 羽 226 20 875 
a 261 70 192 EXA 47 15 964 di 30 15 151 
ibfer 324 34 739 楚 庄 王 36 14 907 黄帝 36 12 813 
张骞 38 33 733 范 宣 子 35 14 498 韩信 61 12 431 
彭 越 175 31 079 郑 文公 39 14 362 章 邯 55 12 153 
BKE 72 27 045 RBA 33 13 860 秦始皇 45 11 996 
刘 安 48 23 297 知 武子 36 13 828 Lori 36 10 164 
张 耳 145 22 233 TRA 38 12 594 Sp 53 7 255 
陈 余 131 22 186 周文 33 11 996 页 梁 56 7 170 
5.3 ”实体 历时 统计 分 析 现 , 在 整个 时 间 区 域内 ,人 物 略 多 于 地 点 , 且 存 在 时 间 


5.3.1 多 事 之 秋 一 一 实体 历时 分 布 

从 文本 中 实体 所 出 现 的 频次 密度 的 角度 来 分 析 可 
以 更 好 地 呈现 不 同时 间 段 之 间 的 差异 性 。 将 《 资 治 通 
3€ - 周 秦 汉 纪 》 所 记载 实体 分 别 对 应 到 公元 纪年 法 ,可 
以 得 到 其 所 对 应 的 公元 前 403 年 至 公元 前 87 年 间 的 
实体 曲线 。 如 图 8 所 示 , 蓝 色 曲 线 表 示 相 应 时 间 的 人 
物 数量 , 桩 色 曲 线 表 示 相 应 时 间 的 地 点 数量 。 可 以 发 


差异 性 。 人 物 和 地 点 均 在 公元 前 207 年 前 后 达到 峰 
值 ,反映 了 历史 上 具有 重大 决战 性 的 巨 鹿 之 战 ; 人 物 和 
地 点 曲线 在 公元 前 154 年 前 后 同时 上 升 ,反映 了 历史 
上 西汉 规模 最 大 的 一 次 诸侯 王国 叛乱 一 一 七 国之 乱 。 
通过 在 时 空 角 度 进行 分 析 的 方法 ,可 以 快速 地 定位 发 
生 重大 事件 的 历史 时 代 。 
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人 物 /地 名 频次 


图 8 人 物 与 地 点 历时 分 布 


5.3.2 ”风云 人 物 与 风云 之 地 一 “特异 性 实体 挖掘 
二 =《 资 治 通 鉴 ) 是 一 部 编 年 体 通史 ,时 间 信 息 丰 富 。 
利 谓 时 间 信息 ,可 以 挖掘 出 每 个 时 代 的 文本 中 的 特异 
成 希 。 例 如 ,可 以 利用 特异 性 指标 TF-IDF ,来 得 到 在 
届时 代 举 足 轻重 的 风云 人 物 与 和 风云 之 地 。 

© TF-IDF ( Term Frequency - Inverse Documentation 
Frequency ) 算 法 是 由 G. Salton. 提出 来 的 用 于 信息 检索 
的 算法 :二 。TF-IDF 主要 基于 一 个 思想 , 即 词 区 分 特定 
误 自 内 容 的 能 力 随 着 其 在 该 文本 中 出 现 的 频率 的 升 高 
1587] (TF) , 随 着 所 出 现 文本 的 范围 的 扩大 而 下 降 
(IDE) 。 因 此 ,TF-IDF 越 高 ,表明 该 词汇 的 文本 区 分 度 
或 党 说 特异 性 越 强 ;TF-IDF 越 弱 ,表明 该 词汇 的 文本 
Of cci ab st. 
c 


c T 
© 


通过 TF-IDF 算法 分 析 , 可 以 得 到 一 批 具有 时 代 特 
色 的 人 物 实体 ,进而 借助 上 一 节 的 人 物 历时 分 析 方 法 ， 
可 以 将 每 个 时 代 的 重要 人 物 绘制 在 时 间 轴 上 。 利 用 
ECharts 的 流体 图 可 视 化 工具 ,绘制 出 图 9 ,可 以 看 出 一 
个 个 重要 的 历史 人 物 呈 现 出 "你 方 唱 罢 我 登场 "的 态 
势 。 吴 起 自 公 元 前 412 年 被 鲁 元 公 起 用 而 走 人 历史 舞 
台 ,至 公元 前 381 年 被 贵族 射 杀 而 淡出 历史 记载 ; 秦 始 
星 遍 政 自 公元 前 259 年 出 生 被 历史 关注 ,至 公元 前 210 
年 逝世 走出 历史 视野 ;汉文 帝 自 公元 前 178 年 文 景 之 
治 的 开始 达到 顶峰 , 汉 景 帝 至 公元 前 141 年 逝世 结束 


景 之 治 。 通 过 风云 人 物 实 体 的 挖掘 ,能 够 更 直观 地 
看 到 历史 的 演化 。 


产 
张 汤 
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9 风云 人 物 历 时 演变 


同样 地 ,以 相同 的 方式 可 以 得 到 不 同时 代 最 重要 
的 地 点 流 变 ,如 图 10 所 示 。 可 以 发 现 ,不 同 的 地 点 随 
着 历史 的 演变 而 此 起 彼 伏地 成 为 一 个 个 时 代 的 焦点 ， 
或 是 诸侯 国都 ,或 是 兵家 必 争 之 地 ,都 成 为 时 代 更 迭 的 
印记 。 


6 结语 


在 古籍 数字 化 与 全 文 检索 已 普遍 应 用 的 今天 ,如 


何 综合 运用 数字 人 文 的 新 技术 和 手段 ,充分 利用 我 国 
种 类 内 容 丰 富 的 历史 文献 资源 ,在 全 文 检索 的 基础 上 
进行 可 视 化 呈现 和 大 数据 分 析 , 是 当今 文学 、 历 史 和 图 
书 情 报 等 领域 的 重要 课题 。 本 研究 在 数字 人 文 的 研究 
范式 下 ,针对 基于 字 的 全 文 检 索 存 在 的 词语 边界 和 实 
体 概 念 不 明 问 题 , 以 及 本 体 知识 库 与 原文 脱节 问题 , 提 
出 使 用 全 文 词语 标注 的 解决 方案 ,尝试 建设 了 《 资 治 通 
鉴 ， 周 秦汉 纪 》 数 字 人 文 知识 库 ,对 文本 进行 了 词语 切 
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[J]. 图 书 情报 工作 ,2021 ,65(22) :134 -142. 
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分 .词性 标注 和 实体 信息 的 全 文 标 注 。 其 次 ,开发 了 基 
于 词 和 实体 的 全 文 检索 系统 ,包括 人 物 检 索 、 地 点 检 
索 .词性 检索 等 ,并 借助 百度 地 图 和 ECharts ,可 视 化 地 
展现 了 相关 的 人 物 游 历 ` 地 理 信息 和 人 物 关系 。 然 后 
进行 了 计量 分 析 与 知识 挖 气 ,穷尽 统计 了 《 资 治 通 鉴 


周 秦汉 纪 》 中 的 人 物 数量 。 对 于 实体 进行 了 多 角度 的 
关联 分 析 与 挖掘, 例如 人 物 交 际 、 人 物 游 历 地 图 、 多 事 
之 秋 、 风 云 人 物 地 点 等 。 还 通过 与 《 左 传 X《 史 记 : 本 
纪 》 的 比较 ,统计 出 3 本 书记 述 的 人 物 差异 。 


-410 -390 -370 -350 -330 -310 -290 -270 -250 -230 -210 -190 -170 -150 -130 -110 51 
公元 纪年 


Yu 


> 图 10 风云 之 地 历时 演变 


VN 在 未 来 的 工作 中 ,我 们 将 继续 做 好 以 下 研究 工作 
大 数据 规模 ,将 整 部 《 资 治 通 鉴 ) 标 注 完整 ,并 反 
复 丛 查 校正 。@ 继 续 完 善 实体 信息 标注 ,结合 学 界 最 
新 的 考据 成 果 ,不 断 修订 数据 库 的 内 容 。 同 时 ,还 需 提 
"ag AT MUS ,增加 纠 错 与 审核 机 制 ,吸引 更 多 的 专家 
党 者 参 与 到 项 目 工作 中 来 。 实 体 标注 的 对 象 也 可 以 扩 
RB aa @ 探 索 更 多 的 知识 
统计 与 知识 挖掘 方法 。 实 体 之 间 的 同 现 当前 还 只 是 处 
于 冠 亿 估计 的 阶段 ,未 来 也 可 以 优化 计算 方法 ,提高 计 
的 精确 度 。 此 外 ,还 可 以 考虑 对 人 物 关 系 和 人 地 关 
系 是 行 更 细致 的 分 类 。 例 如 人 物 关系 增加 朋友 AR 
上 娶 下 属 等 。@ 改 进 检索 与 数据 可 视 化 方式 。 如 将 当 
前 5 同 的 检索 方式 有 机 地 进行 整合 ,提高 检索 效率 , 提 
升 当前 可 视 化 的 展示 效果 。@ 此 外 ,还 可 以 同 图 书馆 、 
博物 馆 数据 库 联通 ,将 《 资 治 通 鉴 》 的 文本 信息 与 其 他 
历史 文献 和 馆藏 品 进行 链接 ,将 诸多 历史 要 素 融 于 一 
体 进行 星 现 。 
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The Construction and Application for Digital Humanities Knowledge Base of Ancient Books Based 
on Word and Entity Annotation; A Case Study on Zhou Qin Han Annals of Zizhitongjian 
Chang Bolin Wan Chen? Li Bin' Chen Xinyu Feng Minxuan Wang Dongbo’ 

! School of Chinese Language and Literature, Nanjing Normal University , Nanjing 210097 
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Abstract: | Purpose/significance | To explore a humanistic knowledge base construction method based on word 
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retrieval and knowledge mining. | Method/ process | This paper constructed the Zhou Qin Han Annals of 
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the Zizhitongjian , achieved the automatic segmentation and part-of-speech tagging of the 68-volume 600 ,000-charac- 
Ter text, manually annotated entity information such as persons, locations, GIS and time in the text, and designed the 
&ystem of full-text retrieval and map visualization based on words and entities. This paper used co-occurrence infor- 
nation to get the relationship and travel information of the characters. By TF-IDF and time series analysis, the key 
-periods , people and locations in history were automatically extracted and illustrated. | Result/conclusion | Depth in- 
mation labeling based on words and entities is a good solution to the problems of word boundaries , same name with 
different person and different name with same person, and it can solid the basis for multi-studies on the knowledge 
mining and knowledge service of ancient books. 
Keywords: Zizhitongjian digital humanities knowledge mining ancient book retrieval | ancient Chinese lan- 


guage processing 
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